Model updates by ericc59 · Pull Request #85 · arcprize/arc-agi-benchmarking

ericc59 · 2026-03-19T20:06:19Z

Summary

Add new model configs: GPT 5.4 (pro/base/mini/nano), Grok 4.20, Qwen 3.5, DeepSeek v3.2, GLM-5, and older baselines (gpt-4o, gpt-4, gpt-3.5-turbo, claude-3-haiku)
Add make score, make upload, and make run-benchmark Makefile targets with score_table.py CLI
Fix resume logic to requeue failed/in-progress tasks that have no submission file on disk
Extract _prepare_responses_kwargs() in OpenAI base adapter: default store=False, map reasoning_effort config to Responses API reasoning.effort, fix response parsing to skip reasoning items
Filter HF uploads to JSON only to prevent checkpoint files from getting uploaded (allow_patterns=["*.json"])

…ng_effort, fix response parsing.

ericc59 added 7 commits March 19, 2026 14:55

New model configs + Makefile/score_table updates

f848d0e

Requeue failed/in-progress tasks on resume instead of skipping them.

1fe1bce

Extract _prepare_responses_kwargs(), default store=False, map reasoni…

1b15889

…ng_effort, fix response parsing.

upload filter + preflight fix

c18212b

remove unused ollama adapter

535a536

fix preflight test

1dbb0f5

add score table back in

09d2cf8